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PROCEDE D f ARCHIVAGE DE TEXTES ET PROCEDE DE 
RECHERCHE, PARMI LES TEXTES ARCHIVES, DE CEUX QUI 
SONT PERTINENTS A L'EGARD D'UNE QUESTION 

5 

Avec les moyens modernes de traitement de donnees, d'une rare 
permanence, le monde de la documentation a connu recemment une 
expansion considerable. Au fur et a mesure que les besoins ou les envies de 
connaissances des individus augmentent, les donnees elles-memes 
10 augmentent egalement, peut-etre davantage encore. Le nombre d'ouvrages, 
revues, journaux, et autres publications de toutes sortes, meme sur une 
question precise, ne fait que croitre aussi. Le stockage ou Tarchivage de 
donnees est devenu une tache difficile. A l'inverse, l'extraction de donnees 
d'un lot stocke n'est, aujourd'hui, pas plus aise. 

15 

On connait la solution des mots cles a ce double probleme. Compte tenu 
des tailles des banques de donnees, c'est une solution qui, bien souvent, 
n'est plus appropriee, rinterrogation dun mot cle fournissant a la fois trop 
et pas assez de documents, en raison des homonymies (documents non 
20 . pertinents) et des synonymies non prises en compte. 

De microscopiques, l'analyse et la recherche doivent devenir 
macroscopiques et c'est ce que la demanderesse a cherche a offrir. Du mot, 
les documentalistes et archivistes doivent passer au concept, a l'idee, c'est- 
25 a-dire a la pluralite, la combinaison, Tassociation de mots. 

L'invention conceme aussi bien le processus d'analyse et d'archivage- 
stockage de textes, que la recherche, Textraction de textes archives. Bref, 
Tinvention vise a proposer des outils d'amelioration de Torganisation des 
30 connaissances. 

L'invention conceme tout d'abord un procede d'archivage d'un texte selon 
lequel: 

- on cree dans un repere conceptuel multidimensionnel un dictionnaire de 
35 mots, 

- on compare chaque mot conceptuel d'au moins une portion du texte a 
archiver a ceux du dictionnaire pour determiner la position de ce mot dans 
ledit repere et 

- on determine la resultante des positions de tous les mots conceptuels de la 
40 portion de texte a archiver pour determiner la position d'une 




conceptualisation globale de la portion de texte dans ledit repere et archiver 
cette position. 

Par le terme "mot", il faut naturellement entendre 1'unite linguistique, c'est- 
5 a-dire le mot, au sens propre du terme, mais egalement le groupe de mots 
formant une expression semantique unitaire, comme par exemple "crise 
cardiaque". 

Les axes du repere de l'invention, en nombre egal a celui des dimensions, 
10 correspondent aux divers concepts exprimes dans le dictionnaire. 

Un mot, dans le procede de l'invention, est defini par un point, ou un 
vecteur s'etendant depuis l'origine du repere jusqu'a ce point, dont les 
coordonnees, sur les axes du repere, correspondent respectivement aux 
15 poids relatifs des divers concepts attaches a ce mot. 

Finalement, le procede d'archivage de l'invention consiste a vectoriser les 
mots d'un texte et a en calculer la resultante conceptuelle representative de 
l'ensemble du texte dans un repere d'une pluralite de concepts. 

20 * 

Avantageusement, pour determiner la resultante des positions, dans le 
repere, de tous les mots conceptuels de la portion de texte a archiver, a 
chaque position de mot dans le repere, on associe d'abord sa position dans 
le texte et son role syntaxique. 

25 

Avantageusement encore, pour determiner la resultante des positions des 
mots conceptuels de la portion de texte a archiver, on multiplexe ces 
positions par un algorithme de composition. 

30 L'invention conceme aussi un procede de recherche parmi une pluralite de 
textes archives selon le procede ci-dessus, de ceux qui traitent d'une 
question, dans lequel: 

- comme pour l'archivage de texte, on determine la position dans le repere 
conceptuel multidimensionnel d'une conceptualisation globale de la 

35 question, par determination de la resultante des positions de tous les mots 
conceptuels de la question et 

- on compare la position de la conceptualisation globale de la question aux 
positions homologues des textes archives, pour retenir au moins Tune 
d'entre elles, correspondant a un texte recherche. 




Avantageusement, on compare les positions, des conceptualisations 
globales de la question et des textes archives en determinant, pour chaque 
texte, une distance entre les deux positions respectives de la question et du 
texte. 

5 

De preference, la distance determinee entre deux positions est non 
euclidienne. 

L'invention sera mieux comprise a l'aide de la description suivante de 
10 differents modes de realisation du procede d'archivage de textes et du 
procede de recherche, parmi les textes archives, de ceux qui traitent d f une 
question, en reference a la figure unique annexee qui represente un repere 
conceptuel multidimensionnel. 

15 Par souci de clarte, et de fa?on a faire comprendre au mieux l'invention, 
l'exemple qui va maintenant etre decrit est un exemple didactique, un cas 
d'ecole, extremement simplifie. 

Le procede d'archivage de textes va d'abord etre explicite. 

20 

1- Procede d'archivage de textes 

1.1- Creation d'un dictionnaire de mots 

25 D'emblee, on rappelle que par le terrne "mot", on entend designer une unite 
linguistique, c'est-a-dire aussi bien un mot, au sens propre du terme, qu'un 
groupe de mots formant une expression semantique unitaire, comme par 
exemple "crise cardiaque", "carte d'identite", "secteur secondaire", etc.. 

30 Soit un espace vectoriel de dimension n, n &ant un entier naturel superieur 
a un, que Ton munit d'un repere conceptuel 9?, d'un produit scalaire et d'une 
norme associee. On rend le repere 91 orthonorme. Par repere orthonorme, 
on entend designer une base de n vecteurs orthogonaux (pour le produit 
scalaire defini) et de norme egale a un (pour la norme definie). Par 

35 definition, les vecteurs de la base sont des vecteurs par combinaison 
lineaire desquels tous les vecteurs de l'espace vectoriel peuvent etre definis. 

Dans l'exemple didactique de la description, l'espace vectoriel est de 
dimension trois et muni du produit scalaire euclidien et de la norme 
40 euclidienne associee, ainsi que d'un repere conceptuel 9t, represente sur la 



• • • 

4 



figure, comportant trois axes A u A 2 , A 3 portant respectivement les vecteurs 
de base"ui,1u2> II3 dont les coordonnees respectives dans le repere 9? sont (1, 
0,0), (0, l,0)et(0,0, 1). 

5 D'emblee, on notera qu'une position dans le repere 9? est definie par un 
triplet de coordonnees respectivement suivant les axes Aj, A 2 et A 3 , et qu'a 
chaque position dans le repere 5R correspond un vecteur de mernes 
coordonnees, s'etendant depuis une origine O du repere 9?. Par la suite, on 
confondra done les termes "position" et "vecteur". 

10 ^ 

Par definition, le produit scalaire euclidien de deux vecteurs X et Y est egal 
a la somme des produits des coordonnees homologues des vecteurs X et 
La formule mathematique pour le calcul du produit scalaire euclidien est 
done la suivante: 

15 

- <X,^> represente le produit scalaire de X et de Y et 

- Xj et yi representent les coordonnees respectives du vecteur X et du 
vecteur Y suivant Taxe A;, 

20 avec n representant la dimension de Tespace vectoriel, egal a trois dans 
l'exemple de la description. 

La norme euclidienne llxll du vecteur X est definie par la formule 
suivante: 

25 

L'unite de chaque axe correspond a un concept, une idee exprimee dans le 
dictionnaire. En Tespece: 

- l'unite de Taxe Ai correspond au concept de la physique, 

30 - l'unite de Taxe A 2 correspond au concept de Tetat liquide et 

- l'unite de Taxe A3 correspond au concept de rimprimerie. 



La physique, l'etat liquide et rimprimerie sont done les trois concepts du 
repere conceptuel 91, correspondant aux trois dimensions du repere 3?. 

35 




Afin de creer le dictionnaire de mots, on prend, parmi les mots du langage, 
les mots conceptuels et, pour chacun de ces mots, on determine sa position 
dans le repere conceptuel 9?. 

5 Par les termes "mot conceptuel", on entend designer un mot important du 
texte, charge de sens, exprimant une ou plusieurs idees et contribuant par 
consequent, de fa9on majeure, a donner au texte son sens global. Bref, un 
mot conceptuel est un mot susceptible de faire reference a au moins un 
concept du repere conceptuel. 

10 

Par souci de clarte, on cree ici un dictionnaire contenant les seuls mots 
necessaires a la comprehension de Texemple particulier de la description, a 
savoir les mots suivants: corps, plonger, liquide, subir, poussee, vertical, 
police, penser, noyade, style, fluide, idee, manquer, mecanique. 

On sait qu'un mot peut avoir plusieurs sens et on peut generalement 
determiner le sens dans lequel ce mot est employe dans un texte, suivant le 
contexte du texte. 

20 Pour introduire chacun de ces mots dans le dictionnaire, on recherche tous 
les sens possibles du mot, on en deduit tous les concepts relatifs au repere 
5R auxquels ce mot est susceptible de faire reference, selon le contexte dans 
lequel il est employe, et, suivant ces concepts, on attribue au mot une 
position dans le repere conceptuel SR. Les coordonnees de la position de 

25 chaque mot correspondent aux poids relatifs des divers concepts attaches a 
ce mot. Dans le dictionnaire, les mots sont chacun associes a une position 
representee par un triplet de coordonnees dans le repere 9t. 

Afin d'illustrer cette etape de creation du dictionnaire, explicitons plus en 
30 details Tintroduction de quelques mots particuliers dans le dictionnaire. 

Prenons d'abord le mot "corps". D'apres le dictionnaire "Le Petit Robert" 
(edition les dictionnaires Le Robert, 1993), un corps peut designer "tout 
corps materiel caracterise par ses propriet6s physiques", et le "corps d'une 
35 lettre" s'entend de "la dimension d'un caractere d'imprimerie". On en deduit 
que le mot "corps" peut, suivant son emploi, faire reference soit au concept 
de la physique soit au concept de rimprimerie. En revanche, dans aucun de 
ses sens, le corps ne fait reference au concept de l'etat liquide. Le mot corps 
est ainsi susceptible de faire reference au concept de la physique (axe Ai) 




ainsi qu'a celui de rimprimerie (axe A 3 ). En consequence, on lui attribue, 
dans le repere conceptuel 91, une position ayant pour coordonnees (1,0, 1). 

Prenons encore le mot "plonger" qui peut notamment signifier "faire entrer 
5 dans un liquide", d'apres le dictionnaire Le Petit Robert. Ce mot est done 
susceptible de faire reference au concept de Tetat liquide (axe A 2 ) mais ne 
fait reference, dans aucun de ses sens, au concept de la physique (axe AO 
ou a celui de rimprimerie (axe A 3 ). Par consequent, on attribue au mot 
"plonger" une position ayant pour coordonnees (0, 1, 0) dans le repere 
10 conceptuel 9?. 

Le tableau 1 contient les coordonnees des positions de tous les mots du 
dictionnaire, determinees suivant les etapes que Ton vient de detailler pour 
deux exemples particuliers. 



Tableau 1 





Coordonnees 


Mots 


Ai 


A 2 


A 3 


corps 


1 


0 


1 


plonger 


0 


1 


0 


liquide 


1 


1 


0 


subir 


0 


0 


0 


poussee 


1 


0 


0 


vertical 


0 


0 


0 


police 


0 


0 


1 


penser 


0 


0 


0 


noyade 


0 


1 


0 


style 


0 


0 


1 


fluide 


1 


1 


0 


idee 


0 


0 


0 


manquer 


0 


0 


0 


mecanique 


1 


0 


0 



20 




1.2- Conceptualisation globale des textes a archiver . 

Dans l'exemple didactique de la description, on dispose de trois textes a 
archiver qui sont les suivants: 

5 

Texte 1 : "Tout corps plonge dans un liquide subit une poussee verticale." 

Texte 2 : "La police pense a une noyade." 

Texte 3 : "Le style est fluide mais les idees manquent." 

10 Dans une etape prealable, on precede a une analyse syntaxique de chaque 
texte a archiver afin d'en extraire les mots conceptuels. 

Grace a Textraction des mots conceptuels, on s'affranchit, en vue de l'etape 
suivante de "vectorisation" du texte, des mots contribuant de fa?on mineure 
is a donner au texte son sens global, tels que notamment les pronoms, les 
articles, les prepositions, etc.. 

Pour illustrer cette etape d'extraction, appliquons-la au texte 1. Apres 
analyse de ce texte et extraction des mots conceptuels, on obtient les mots 
20 conceptuels suivants: corps, plonge, liquide, subit, poussee et verticale. 

On transforme ensuite les mots conceptuels flechis (c'est-a-dire les verbes 
conjugues, les adjectifs accordes, les noms au pluriel, etc.), dans leur forme 
non flechie. 

25 

Les mots conceptuels extraits des textes 1, 2 et 3, et eventuellement 
transformes dans leur forme non flechie, sont repertories dans le tableau 2. 



Tableau 2 

30 



Textes 


Mots extraits 


1 


corps, plonger, liquide, subir, poussee, vertical 


2 


police, penser, noyade 


3 


style, fluide, idee, manquer, mecanique 



Pour chaque texte a archiver, on determine la position de chacun des mots 
conceptuels de ce texte, en comparant chacun de ces mots conceptuels a 
ceux du dictionnaire dans lequel les mots sont chacun associes a une 
35 position dans le repere 9?. 






8 



En cas d'identite entre un mot conceptuel du texte et un mot du 
dictionnaire, on lit dans le dictionnaire la position, dans le repere 9?, 
associee a ce mot et on attribue cette position au mot conceptuel du texte. 
Les positions ainsi deterrninees des mots conceptuels extraits des textes 1 a 
5 3 sont celles indiquees dans le tableau 1. 

Puis, pour chaque texte a archiver, on determine la resultante des positions 
dans le repere 9? de tous les mots conceptuels du texte, en multiplexant ces 
positions par un algorithme de composition. Celui-ci consiste ici a faire la 
10 somme vectorielle des positions de tous les mots conceptuels du texte a 
archiver, c'est-a-dire a additionner les coordonnees homologues des 
positions des mots conceptuels du texte. 

Puis on normalise la resultante des positions de tous mots conceptuels du 
15 texte a archiver, et on obtient alors la position d'une conceptualisation 
globale de ce texte dans le repere SR. 

Par definition, un vecteur est normalise lorsque sa norme est egale a un. 
L'etape visant a "normaliser" un vecteur consiste done a diviser ce vecteur 
20 ' par sa propre norme. 

La formule mathematique pour la determination de la position de 
conceptualisation globale du texte d'indice j est done: 



25 - my represente le vecteur du mot conceptuel d'indice i du texte d'indice j, 
- Tj represente la resultante des positions de tous les mots conceptuels du 
texte d'indice j et 

-~tj represente le vecteur de conceptualisation globale du texte d'indice j, 
avec i entier naturel variant de 1 a Nj (Nj representant le nombre total de 
30 mots conceptuels du texte d'indice j), et j entier naturel variant de 1 a 3. 

Le vecteur Tj de conceptualisation globale du texte d'indice j constitue une 
representation vectorielle, dans le repere conceptuel SR, du sens global du 
texte d'indice j. 




Les coordonnees des vecteurs ti, t 2 , t 3 de conceptualisation globale des 
textes 1, 2 et 3, respectivement, sont repertoriees dans le tableau 3. 



s Tableau 3 



Textej 


ResultanteTj 


Vecteur de conceptualisation 
globale tj 


Texte 1 


(3,2,1) 


(0.802, 0.535, 0.267) 


Texte 2 


(0, 1, 1) 


(0, 0.707, 0.707) 


Texte 3 


(2, 1, 1) 


(0.816, 0.408, 0.408) 



Enfin, on archive les positions de conceptualisation globale des textes 1 , 2 
et3. 



2- Recherche, parmi la pluralite de textes archives, de ceux qui traitent 
d f une question 

is On souhaite maintenant rechercher, parmi les textes archives (textes 1, 2 et 
3), les textes qui traitent d f une question determinee qui est ici "la 
mecanique des fluides". 

Comme pour l'archivage de texte, on procede a une analyse syntaxique des 
20 mots de la question afin d'en extraire les mots conceptuels qui sont ici 
"mecanique" et "fluide". 

Dans le cas ou la question comprendrait des mots conceptuels flechis, on 
pourrait transformer ces mots dans leur forme non flechie. 

25 

On compare chacun des mots conceptuels de la question a ceux du 
dictionnaire afin de determiner leur position dans le repere conceptuel 91. 
Les positions respectives du mot "mecanique" et du mot "fluide" sont 
indiquees dans le tableau 1 . 

Puis on determine la resultante Q des positions de tous les mots 
conceptuels de la question, en multiplexant les positions des mots 
conceptuels de la question par ralgorithme de composition utilise pour 




l'archivage de textes. Enfln, on normalise la resultante Q afin d'obtenir le 
vecteur q de conceptualisation globale de la question. 

Les vecteurs Q et ^q ont respectivement pour coordonnees (2, 1, 0) et 
5 (0.894, 0.447, 0). 

Puis, on compare la position de la conceptualisation globale de la question 
aux positions homologues, de conceptualisation globale, des textes archives 
pour retenir au moins Tune d'entre elles, correspondant a un texte 
10 recherche. Cette comparaison consiste a calculer, pour chaque texte archive 
d'indice j (avec j entier naturel egal a 1, 2 ou 3), la distance Dj entre les 
deux positions respectives de la question et du texte. 

La distance Dj entre le vecteur (j de conceptualisation globale de la question 
is et le vecteur t^de conceptualisation globale du texte archive d'indice j est 
ici calculee a l'aide de la formule suivante: 

D j =l-{7 j ,q) 

On soulignera que le calcul de la distance Dj utilise le produit scalaire entre 
le vecteur ~tj"du texte d'indice j et le vecteur cf de la question (<tj,q>). 

20 

Le calcul de la distance Dj entre les positions respectives de la question et 
de chacun des textes archives d'indice j (avec j egal a 1, 2 ou 3) permet 
d'evaluer la ressemblance entre la question et chacun des textes archives. 

25 Les resultats de ces calculs de distance sont indiques dans le tableau 4. 



Tableau 4 





Distance Dj 


texte 1 / question 


0, 044 


texte 2 / question 


0,688 


texte 3 / question 


0,088 



30 

D'apres ces resultats, le texte le plus pertinent, qui est celui pour lequel la 
distance Dj est la plus faible, est le texte 1, ce qui correspond bien a la 
realite. 
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On soulignera que le texte 1 est determine plus pertinent que le texte 3, 
malgre la presence dans ce demier du terme "fluide". 

5 Dans la description qui precede, le vecteur de conceptualisation globale, 
d ! un texte ou de la question, est la resultante normalisee des positions de 
tous les mots conceptuels, de ce texte ou de la question. On pourrait 
egalement envisager de definir le vecteur de conceptualisation globale, d'un 
texte ou d'une question, comme la resultante non normalisee des positions 

10 de tous les mots conceptuels, de ce texte ou de cette question. 

La formule pour le calcul de la distance Dj entre les positions respectives de 
la question et d'un texte archive d'indice j serait alors la suivante: 



' MA 

15 - C^represente le vecteur de conceptualisation globale de la question et 
- Tj represente le vecteur de conceptualisation globale du texte d'iridice j. 

En fait, dans ce cas, on normalise la resultante des positions des mots 
conceptuels par le calcul de la distance entre les positions respectives de 
20 conceptualisation globale du texte et de la question. 

Dans une variante, ne differant de la description precedemment explicitee 
que par ce qui va maintenant etre decrit, on munit Tespace vectoriel 
multidimensionnel d'un produit scalaire non euclidien et d'une norme 
25 associee non euclidienne. 

On definit le produit scalaire non euclidien, de deux vecteurs X et Y, par la 
formule suivante: 

^ 1 
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On definit la norme associee du vecteur X par la formule suivante: 
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- Xj et yi representent les coordonnees respectives du vecteur X et du 
vecteur Y suivant l'axe Ai du repere conceptuel et 

- ki represente un coefficient de pondefation, relatif a l'axe Aj, 

avec i entier naturel variant de 1 a n, n representant la dimension de 
5 l'espace vectoriel. 

On fixe le coefficient ki relatif a l'axe d'indice i en fonction de l'importance 
du concept exprime par cet axe dans le repere conceptuel. 

10 Dans cette variante, pour rechercher, parmi une pluralite de textes archives, 
ceux qui sont pertinents a 1'egard d'une question, on compare les positions 
des conceptualisations globales de la question et des textes archives, en 
determinant, pour chaque texte, la^ 'distance entre les deux positions 
respectives de la question et du texte, a l'aide de la formule de calcul de 

is distance explicitee dans le premier mode de realisation du precede de 
recherche decrit, et en utilisant le produit scalaire non euclidien tel que 
defini ci-dessus. 

Dans un deuxieme mode de realisation du precede d'archivage de textes, ne 
20 differant du premier mode de realisation decrit que par ce qui va 
maintenant etre decrit, pour chaque texte a archiver, on associe a la position 
P*, dans le repere 9t, de chaque mot conceptuel de ce texte d'abord sa 
position dans le texte P T ainsi que son role syntaxique R synt dans le texte, 
afin de former, pour chaque mot conceptuel extrait du texte, un triplet (P*, 
25 P T , Rsynt) contenant la position P* ,dans le repere 9?, du mot, sa position P T 
dans le texte et son role syntaxique R^. 

Pour chaque texte a archiver, on determine la resultante des positions des 
mots conceptuels du texte, en multiplexant les triplets de tous les mots 
30 consptuels du texte par un algorithme de composition, afin de determiner la 
position de la conceptualisation globale de ce texte. 

Pour rechercher, parmi les textes archives suivant ce precede d'archivage, 
ceux qui traitent d'une question, on determine la position de la 

35 conceptualisation globale de la question. Pour cela, comme pour l'archivage 
des textes, on determine la resultante des positions de mots conceptuels de 
la question en associant chaque mot conceptuel de la question a un triplet 
contenant la position de ce mot dans le repere 1R, sa position dans la 
question et son role syntaxique dans la question et en multiplexant ces 

40 triplets par ralgorithme de composition utilise pour Farchivage. 
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Puis, on compare la position de la conceptualisation globale de la question 
aux positions homologues des textes archives, en calculant la distance entre 
ces positions. On en deduit la ressemblance entre la question et les textes 
5 archives et, par consequent, les textes les plus pertinents qui traitent de la 
question. 

Dans un troisieme mode de realisation du precede d'archivage de textes, ne 
differant du premier mode de realisation decrit que par ce qui va 
10 maintenant etre decrit, on decoupe le texte en une pluralite de segments. 
Chaque segment comprend initialement un nombre predefini de mots 
conceptuels, ici cinq, voisins Tun de l'autre dans le texte. 

Deux segments sont dits "voisins" ici lorsqu'ils sont cote a cote dans le 
is texte ou separes Tun de l'autre uniquement par des mots non conceptuels. 

On determine les positions, dans le repere conceptuel, de tous les mots 
conceptuels du texte. Pour chaque segment de texte, on determine la 
resultante des positions de tous les mots conceptuels de ce segment, en 
20 multiplexant ces positions par ralgorithme de composition utilise dans le 
premier mode de realisation du procede d'archivage decrit. Puis on 
normalise cette resultante afin d'obtenir la position de conceptualisation 
globale du segment dans le repere conceptuel. 

25 On compare ensuite deux a deux les positions de conceptualisation globale 
des segments voisins dans le texte, en calculant, pour chaque couple de 
segments voisins, la distance entre les deux positions respectives de 
conceptualisation des deux segments, a l'aide de la formule de calcul de la 
distance explicitee dans le premier mode de realisation du procede de 

30 recherche. 

Si la distance entre les positions respectives de conceptualisation globale de 
deux segments voisins est inferieure a un seuil predefini, en d'autres termes 
si ces deux segments ont des sens proches, on regroupe ces deux segments 
35 en formant ainsi un nouveau segment dont on determine la position de 
conceptualisation globale. 



En revanche, si la distance entre les positions de conceptualisation globale 
de deux segments voisins est superieure au seuil predefini, autrement dit si 
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ces deux segments ont des sens eloignes, on ne regroupe pas les deux 
segments. 

On reitere l'etape consistant a regrouper les segments voisins, jusqu'a ne 
5 plus pouvoir les regrouper. Par regroupements iteratifs de segments, on 
forme et on delimite ainsi une pluralite de portions de texte qui sont telles 
que la distance entre les positions respectives de conceptualisation globale 
de deux portions de texte voisines est superieure au seuil predefini. En 
d'autres termes, le sens global de chaque partie du texte est eloigne du sens 
10 global d'une partie voisine. 

Pour comparer une question et un texte archive comprenant une pluralite de 
portions representees chacune par sa position de conceptualisation globale 
dans le repere conceptuel, on compare la position de chacune des portions 
is de texte a celle de la question, en calculant la distance entre ces positions. 
On considere un texte comme pertinent si la distance entre la position de 
Tune de ses portions et la position de la question est faible. 

Bien entendu, on pourrait decouper la question en une pluralite de portions 
20 representees chacune par sa position de conceptualisation globale. 

Dans ce cas, on comparerait deux a deux les vecteurs des portions d'un 
texte archive et ceux des portions de la question. On considere que le texte 
est pertinent si la distance entre la position de Tune de ses portions et la 
25 position de Tune des portions de la question est faible. 

On soulignera que, dans le troisieme mode de realisation du procede 
d'archivage, on archive chacune des portions d'un texte de la meme maniere 
que Ton archive un texte (constitue d'une seule portion) dans le premier 
30 mode du procede d'archivage. Finalement, un "texte" et une "portion de 
texte" sont deux ensembles de mots equivalents. 

Concernant ralgorithme de composition pour la determination de la 
resultante des positions de mots conceptuels d'un texte, d'un segment de 

35 texte ou d'une question, au lieu de faire seulement la somme vectorielle des 
positions des mots conceptuels du texte, du segment de texte ou de la 
question, on pourrait en outre amplifier les valeurs des coordonnees les 
plus fortes du vecteur resultant de la somme vectorielle des positions des 
mots conceptuels, par exemple en les multipliant par un coefficient 

40 predefini. On amplifie ainsi encore l'importance des concepts les plus 
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importants, au detriment des concepts moins importants, afin d'eviter 
d'eventuelles ambigultes lors de la comparaison des vecteurs de 
conceptualisation globale d'un texte et d'une question. En fait, on reduit 
ainsi le bruit du aux coordonnees ayant des valeurs faibles des vecteurs de 
5 conceptualisation. 

Afin d'illustrer cette variante, appliquons la au texte 1. Par la somme 
vectorielle des positions de tous les mots conceptuels de ce texte, on obtient 
le vecteur (3, 2, 1). Afin d'obtenir la resultante des positions de tous les 
10 mots conceptuels du texte 1, on multiplie les coordonnees les plus fortes, 
qui sont celles suivant les axes Ai et A2, par un coefficient ici egal a 2. La 
resultante du texte 1 est done le vecteur (6, 4, 1). 

Dans l'exernple didactique decrit plus haut, la question, "la mecanique des 
15 fluides", comprenait peu de mots. On pourrait bien evidemment prendre 
une question contenant beaucoup plus de mots et consistait meme en un 
texte. 



20 



En pratique, le repere conceptuel 9? comprend plusieurs centaines de 
dimensions, et le dictionnaire contient plusieurs milliers de mots. 



< 
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REVENDICATIONS 



1- Procede d'archivage d'un texte (1) selon lequel: 
5 - on cree dans un repere conceptuel multidimensionnel un dictionnaire de 
mots, 

- on compare chaque mot conceptuel d'au moins une portion du texte a 
archiver (1) a ceux du dictionnaire pour determiner la position de ce mot 
dans ledit repere et 

10 - on determine la resultante (TO des positions de tous les mots conceptuels 
de la portion de texte a archiver (1) pour determiner la position d f une 
conceptualisation globale de la portion de texte (1) dans ledit repere et 
archiver cette position. 

is 2- Procede selon la revendication 1, dans lequel, pour determiner la 
resultante des positions, dans le repere, de tous les mots conceptuels de la 
portion de texte a archiver, a chaque position de mot dans le repere, on 
associe d'abord sa position dans le texte et son role syntaxique. 

20 * 3- Procede selon Tune des revendications 1 et 2, dans lequel pour 

determiner la resultante (TO des positions des mots conceptuels de la 

portion de texte a archiver (1), on multiplexe ces positions par un 
algorithme de composition. 

25 4- Procede selon la revendication 3, dans lequel Talgorithme de 
composition consiste a faire la somme vectorielle des positions de tous les 
mots conceptuels de la portion de texte a archiver (1). 

5- Procede selon la revendication 4, dans lequel l'algorithme de 
30 composition consiste en outre a amplifier Timportance des concepts les plus 

importants. 

6- Procede selon Tune des revendications 1 a 5, dans lequel on normalise la 
resultante (Ti) des positions de tous les mots conceptuels de la portion de 

35 texte a archiver (1). 

7- Procede selon Tune des revendications 1 a 6, dans lequel on rend le 
repere conceptuel multidimensionnel orthonorme. 




8- Procede selon l'une des revendications 1 a 7, dans lequel, pour chaque 
mot a introduire dans le dictionnaire, on recherche tous les concepts relatifs 
au repere conceptuel, auxquels ce mot est susceptible de faire reference et, 
suivant ces concepts, on attribue au mot une position dans le repere 

5 conceptuel. 

9- Procede selon Tune des revendications 1 a 8, dans lequel on procede a 
une analyse syntaxique de tous les mots de la portion de texte (1) afin d'en 
extraire les mots conceptuels. 

10 

10- Procede selon Tune des revendications 1 a 9, dans lequel on transforme 
les mots flechis de la portion de texte a archiver (1) dans leur forme non 
flechie. 

is 11- Procede d'archivage d f un texte comprenant une pluralite de portions de 
texte, dans lequel on archive chaque portion de texte selon le procede de 
Tune des revendications 1 a 10. 

12- Procede selon la revendication 11, dans lequel on decoupe le texte en 
20 une pluralite de segments dont on determine les positions respectives de 
conceptualisation globale dans le repere conceptuel, et on compare les 
positions respectives de conceptualisation globale des segments voisins 
dans le texte pour delimiter les portions du texte. 

25 13- Procede selon Tune des revendications 11 et 12, dans lequel pour 
comparer les positions respectives de conceptualisation globale de deux 
segments voisins dans le texte, on determine la distance entre ces positions, 
et, dans le cas ou ladite distance est inferieure a un seuil predefini, on 
regroupe les deux segments en formant un nouveau segment. 

30 

14- Procede selon la revendication 13, dans lequel on forme les portions de 
texte par regroupements iteratifs de segments. 

15- Procede de recherche parmi une pluralite de textes archives selon le 
35 procede d'archivage de Tune des revendications 1 a 14, de ceux qui traitent 

d'une question, dans lequel: 

- comme pour l'archivage de texte, on determine la position dans le repere 
conceptuel multidimensional d'une conceptualisation globale de la 
question, par determination de la resultante (Q) des positions de tous les 
40 mots conceptuels de la question et 
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- on compare la position de la conceptualisation globale de la question aux 
positions homologues des textes archives, pour retenir au moins Tune 
d'entre elles, correspondant a un texte recherche. 

5 16- Procede selon la revendication 15, dans lequel on compare les positions 
des conceptualisations globales de la question et des textes archives en 
determinant, pour chaque texte, la distance entre les deux positions 
respectives de la question et du texte. 

10 17- Procede selon Tune des revendications 15 et 16, dans lequel le calcul de 
la distance entre deux positions dans le repere conceptuel utilise le produit 
scalaire desdites positions. 

18- Procede selon la revendication 17, dans lequel on calcule la distance 
is entre deux positions dans le repere conceptuel, a l'aide de la formule 
suivante: 

£>=1-hW J~ 



xUy 



- X et Y representant les deux positions, _^ 

- Djrej>resentant la distance entre les deux positions^ et Y, 

- <X^ Y> representant le produit scalaire de X et de Y et 

20 - I i X 1 1 et 1 1 Y 1 1 representant les normes respectives de X et de Y. 

19- Procede selon Tune des revendications 15 a 18, dans lequel la distance 
determinee entre deux positions est non euclidienne. 

25 20- Procede selon la revendication 19, dans lequel la distance determinee 
entre deux positions utilise le produit scalaire defini par la formule 
suivante: 

- <X, Y> representant le produit scalaire de deux positions X et Y, 

30 - n, entier naturel, representant la dimension du repere conceptuel 
comportant n axes d'indice i avec i entier naturel variant de 1 an, 

- Xj et y* representant les coordonnees respectives des positions X et Y 
suivant l'axe d'indice i et 

- kj representant un coefficient de ponderation relatif a Taxe d'indice i. 
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21- Procede selon Tune des revendications 15 a 19, dans lequel on 
normalise la resultante (Q) des positions de tous les mots conceptuels de la 
question. 

22- Procede selon Tune des revendications 15 a 21, dans lequel on procede 
a une analyse syntaxique de tous les mots de la question afin d'en extraire 
les mots conceptuels. 

24- Procede selon Tune des revendications 15 a 22, dans lequel on 
transforme les mots flechis de la question dans leur forme non flechie. 
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